社区会议回顾总结
Flink 1.17 Batch 最新进展介绍
Adaptive Batch Scheduler:改进了分区消费算法,解决了分区大小不均匀导致下游处理数据不均匀。并成为 Batch 模式下默认的 Scheduler。 Speculative Execution:针对 Sink 支持了 Speculative Execution,并根据 Task 处理的数据量及执行时间改进了慢任务检测算法,排除数据倾斜的影响。 Hybrid Shuffle:优化了 Broadcast 性能,并能与 Adaptive Batch Scheduler 和 Speculative Execution 一起工作。 新 Join Reorder 算法:引入 DPSize 算法生成稠密树。根据 Query 中 Join 个数,自动选择稠密树算法还是左深树算法。 Dynamic Partition Pruning:更多的场景能使用 DPP 优化。 Adaptive Local Hash Aggregate:运行时动态根据 Local Agg 的聚合度,决定是否继续做 Local Hash Agg 还是改做简单的Projection。 Hive Sink:在批模式下,支持小文件合并,对齐 Hive 合并行为。 Hive SQL:Hive 语法模式下,原生支持 Hive 常用的聚合函数,TPC-DS 性能提升一倍。 SQL Client/Gateway:SQL Client 能直连到远程 SQL Gateway,方便用户做交互式查询分析。 UPDATE/DELETE 语法:支持了标准的数据修正语法 UPDATE 和 DELETE,以及对应的 Connector API,方便数据湖的对接。
快手的 Flink Batch 实践经验
蚂蚁金服的流批一体落地实践
Flink Batch 在 Shopee 的应用和实践
字节跳动的 Flink Batch 实践经验
邀请 | 第二场 Flink Batch 社区开发者会议
会议时间
日程邀请
加入 https://groups.google.com/g/flink-sync Google 群组获取日程邀请。
会议议题
Flink Batch Roadmap 讨论 (欢迎提交[4] 其他讨论议题)